已經結束第一階段 Retrieval 了!!!
這篇文章來簡介一下 vector database(向量資料庫)。
在檢索最接近的向量時,vector database 可以高效快速地查詢 N 維空間中的最近鄰。
vector database 通常用於支援視覺化、語意和多模態搜尋等向量搜尋使用案例。
在模型中,k-nearest neighbor (k-NN) 索引可以提供有效的向量擷取,並套用像餘弦相似度等距離函數,根據相似性對結果進行排序。
以下是 vector databases 的全景圖:
以下是幾個流行的向量資料庫及其簡介:
Chroma 是一個開源的向量資料庫,旨在提供高效的向量檢索功能,支援多種距離度量和索引方法,適合各種應用場景,包括自然語言處理和圖像檢索。
Pinecone 是一個雲端向量資料庫,專注於實時、可擴展的向量檢索。它提供高性能的 k-NN 搜索,支援大規模的向量數據處理,並能夠處理多模態資料。
Weaviate 是一個開源的向量資料庫,支援自動化的向量索引和查詢。它整合了圖形資料庫的功能,提供強大的語意搜尋能力和內建的機器學習模型支持。
Faiss(Facebook AI Similarity Search)是由 Facebook 開發的高效向量檢索庫,專門設計用於處理大規模的向量數據。它支援多種索引和搜索策略,適合大規模機器學習和相似性搜尋應用。
Qdrant 是一個用於向量檢索的開源資料庫,具有高效的索引和搜尋功能。它支援分佈式部署,並提供簡單易用的 API,用於構建高性能的向量搜索應用。